Descenso de espejo en el espacio de trayectorias para el aprendizaje por refuerzo on-policy bajo el puente de Schrödinger generalizado
Descenso de espejo en trayectorias para RL on-policy bajo el puente de Schrödinger generalizado. Método innovador que optimiza políticas combinando teoría de puentes de Schrödinger y aprendizaje por refuerzo.